大数据概念及常用算法介绍

作者:温馨147932519 时间:2024-01-10 阅读:1524

01.大数据的一些概念

大数据:指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。


大数据概念及常用算法介绍

日常使用大数据的一些平台有hadoop 和Microsoft Azure,也有一些数据库软件平台,如:ORACLE (甲骨文)和SQL Server等。

日常的大数据应用主要有:SQL查询和传统报表分析。一些技术应用包括:数据挖掘,机器学习,深度学习,人工智能等。

人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。

人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括语音识别、图像识别、机器人、自然语言处理、智能搜索和专家系统等。人工智能可以对人的意识、思维的信息过程的模拟。人工智能不是人的智能,但能像人那样思考、也有可能超过人的智能。

数据挖掘(Data Mining),顾名思义就是从海量数据中挖掘隐藏信息,按照教科书的说法,这里的数据是大量的、不完全的、有噪声的、模糊的、随机的实际应用数据,信息指的是隐含的、规律性的、人们事先未知的、但又是潜在有用的并且最终可理解的信息和知识。在商业环境中,企业希望让存放在数据库中的数据能说话,支持决策。所以,数据挖掘更偏向应用。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。

机器学习(Machine Learning)是指用某些算法指导计算机利用已知数据得出适当的模型,并利用此模型对新的情境给出判断的过程。机器学习的思想并不复杂,它仅仅是对人类生活中学习过程的一个模拟。而在这整个过程中,最关键的是数据。任何通过数据训练的学习算法的相关研究都属于机器学习,包括很多已经发展多年的技术,比如线性回归(Linear Regression)、K均值(K-means,基于原型的目标函数聚类方法)、决策树(Decision Trees,运用概率分析的一种图解法)、随机森林(Random Forest,运用概率分析的一种图解法)、PCA(Principal Component Analysis,主成分分析)、SVM(Support Vector Machine,支持向量机)以及ANN(Artificial Neural Networks,人工神经网络)。

深度学习(Deep Learning)的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。深度学习是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本。

机器学习是人工智能的一种实现方式,深度学习是机器学习的一种研究方向

数据挖掘主要利用机器学习提供的技术来分析海量数据,利用数据库的技术来管理海量数据

大数据概念及常用算法介绍

02.常用算法介绍


大数据概念及常用算法介绍


我们可以根据单独样本,描述一个样本特征的向量。以此类推,针对多个群体,就会得出一个样本集。

小明:【180,80,59,87,70,120,4.72,5】

小李:【162,75,58,80,80,160,6.1,5.9】

...........


然后我们进行向量距离计算,

计算公式有欧式距离,曼哈顿距离,切比雪夫距离,马氏距离......

这里我们以欧式距离为例。

欧式距离 :欧几里得度量(educlidean metric),指在m维空间中两点之间的真实距离,或者向量的自然长度,即该点到原点的距离。



大数据概念及常用算法介绍

X=[180,80,59,87,70,120,4.72,5]

Y=[162,75,58,80,80,160,6.1,5.9]


大数据概念及常用算法介绍

通过上式,我们就可以算出具体数值。

接下来介绍三个概念:聚类、分类 、线性回归。

聚类(无监督):将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。

简而言之:面对一堆样本,不知道可以有几个类,也不知道每个类是什么,需要跑出结果后,总结每个类的特征。


大数据概念及常用算法介绍


大数据概念及常用算法介绍



大数据概念及常用算法介绍

聚类-Kmeans

1、在A中,2个红色的点分别代表深浅两种颜色的样本点所在各自群的中心点。

2、不考虑现在分群情况,分别计算各个样本点到2个红色中心点的距离,将距离相似的样本点形成一个新群;如B所示

3、计算C中2个新群的中心点(图中红色的点)。

4、如果C中新的中心点与之前A中的中心点相比较变化极小,则迭代结束;否则返回第1步。

分类(有监督):明确知道要分几类。由带标签的训练集教会计算机什么样的样本属于什么类,然后输入不带标签的测试集测试教育成果。


大数据概念及常用算法介绍


大数据概念及常用算法介绍


分类-KNN(K近邻)

所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。俗话说:近朱者赤近墨者黑。

KNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。

K值若较小,这里取内圈,红色三角占2/3,则绿色的未知物被判断为红色三角;

K值若较大,这里取外圈,蓝色方块占3/5,则绿色未知物被判断为蓝色方块。

模型评价指标:准确率,精度,F值

查准率(Precision)=(检索出的相关信息量/检索出的信息总量)*100%
查全率(Recall)=(检索出的相关信息量/系统中的相关信息总量)*100%
F值=((2*P*R)/(P+R)) *100%

线性回归(Linear Regression)是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合。只有一个自变量的情况称为简单回归,大于一个自变量情况的叫做多元回归。


大数据概念及常用算法介绍

上一篇:马可波罗背景墙瓷砖效果图(马可波罗瓷砖正

下一篇:厨房门口两边柜子图(冰箱放在进厨房的门边

猜你喜欢

消防通道防火门的价格(钢质防火门成本计算方式)

消防通道防火门的价格(钢质防火门成本计算方式)

知识 2023-11-02 2808
家具安装学徒一般多久(大家有什么更好的建议吗)

家具安装学徒一般多久(大家有什么更好的建议吗)

知识 2023-11-02 3238
农村自建房阳光房图片(农村民房一层屋顶打子子搭建阳光房违章吗)

农村自建房阳光房图片(农村民房一层屋顶打子子搭建阳光房违章吗)

资讯 2023-11-03 1455
即热热水器十大名牌排名(即热式电热水器有何利弊)

即热热水器十大名牌排名(即热式电热水器有何利弊)

知识 2023-11-05 1900
接待台木作(如何有效利用小户型的空间)

接待台木作(如何有效利用小户型的空间)

资讯 2023-11-07 2807
海尔液晶电视底座支架(电视海尔锅盖怎么安装)

海尔液晶电视底座支架(电视海尔锅盖怎么安装)

资讯 2023-11-08 4462
欧式壁画餐厅(饭店贴什么墙纸好看)

欧式壁画餐厅(饭店贴什么墙纸好看)

资讯 2023-11-10 213
箭牌水龙头价格表(箭牌水龙头不出水)

箭牌水龙头价格表(箭牌水龙头不出水)

资讯 2023-11-12 3648
甲醛测试盒价格(甲醛测试盒静置超过30分钟还准吗)

甲醛测试盒价格(甲醛测试盒静置超过30分钟还准吗)

知识 2023-11-22 728
断桥铝门窗推荐品牌(哪个牌子的断桥铝门窗经济实惠)

断桥铝门窗推荐品牌(哪个牌子的断桥铝门窗经济实惠)

资讯 2023-11-23 3268
爱阁家纺(杭州爱妃阁家纺是不是也在找代理商呢)

爱阁家纺(杭州爱妃阁家纺是不是也在找代理商呢)

知识 2023-11-25 1898
大户型宽厅装修效果图(如何才能适合多年龄段的人居住)

大户型宽厅装修效果图(如何才能适合多年龄段的人居住)

资讯 2023-11-25 4624
推拉门轨道宽度的尺寸留多少比较好(推拉门的吊轨最窄多少)

推拉门轨道宽度的尺寸留多少比较好(推拉门的吊轨最窄多少)

知识 2023-12-19 463
瞳孔地震!作弊新手段——“肛珠”作弊,刷新你的知识盲区!

瞳孔地震!作弊新手段——“肛珠”作弊,刷新你的知识盲区!

资讯 2023-12-27 1892
演员侯祥:9岁停止发育,36岁身高不到1米6,和妻子同框像母子

演员侯祥:9岁停止发育,36岁身高不到1米6,和妻子同框像母子

知识 2024-01-05 1758
床品面料支数多少最好(300根纯棉平纹床单好吗)

床品面料支数多少最好(300根纯棉平纹床单好吗)

知识 2024-01-07 1104
20万一栋!又想骗我盖别墅?

20万一栋!又想骗我盖别墅?

知识 2024-01-24 2544
奢侈(为什么现在的年轻人越来越喜欢奢侈的生活)

奢侈(为什么现在的年轻人越来越喜欢奢侈的生活)

知识 2024-02-10 1163
地砖贴楼梯怎么收口(楼梯转角踢脚线怎么接与收口)

地砖贴楼梯怎么收口(楼梯转角踢脚线怎么接与收口)

知识 2024-03-06 3231
全国小商品批发市场汇总,你要的线下货源都在这里(日用小商品)

全国小商品批发市场汇总,你要的线下货源都在这里(日用小商品)

知识 2024-03-16 69